Autoencoders Dispersos Conscientes del Subespacio para Interpretabilidad Mecanicista
Descubre cómo SASA mejora la interpretabilidad de LLMs reduciendo la fragmentación de características y usando la mitad de los tokens de entrenamiento.
Descubre cómo SASA mejora la interpretabilidad de LLMs reduciendo la fragmentación de características y usando la mitad de los tokens de entrenamiento.